查看原文
其他

人工智能帮孩子写暑假作业?有可能还需改进!

The following article is from 人民数据 Author 王简





时值中小学生暑假,督促学生完成暑假作业又成为家长们在假期中的重中之重。人工智能生成内容(简称:AIGC)平台在语言理解和知识回答方面已得到多方证明,但在回答语文、英语等语言类学科问题时,其回答准确和流畅程度仍有待发现。

人民数据研究院围绕ChatGPT、文心一言、讯飞星火和360智脑【1】4个通用AIGC平台,从AIGC辅导功课、学生群体提升语言学习能力和回答习题能力等维度进行综合评估。本次测评以人教版小学3年级和6年级期末习题作为蓝本,评估大语言模型处理选择题、填空题、阅读理解题以及作文题的回答质量和解释能力,对比发现已具备能力与改进可能。


测评发现:


· 回答质量随年级而变化,高年级英语内容回答质量更好,语文学科则更擅长回答低年级内容。


· 分析解读能力逐步体现,原文匹配、语法句法的解释能力已崭露头角,其余方面仍有一定完善空间。


· 中文回答方面国产大语言模型能力显著,写作水平令人惊艳,但拼音识别仍是难题。


· 互动仍以文字输入为主,图片、特殊符号等无法识别,对数学、物理等理科内容的分析理解仍有一段距离。


英语学科——词语筛选待提升,长文理解是亮点





观察大语言模型对不同英语习题回答中,我们从单词/词组、句子理解、阅读理解和撰写作文四个方面综合考察,发现整体表现上文心一言和ChatGPT不相上下,前者更擅长句子理解,后者作文能力更高;360智脑在阅读和字词方面表现良好,但生成作文时更为质朴,所使用的句式偏简单,主题内容单一且字数也较少;而讯飞星火则对3年级单词区分题无法进行有效回答,准确率不足6成。


图:AIGC平台对4类小学英语习题回答准确程度分布


各大平台对于短篇阅读理解(字数在300以内)已达到较为娴熟的程度(正确率均在80%以上),但对于将不同类别单词进行重新分类的题目仅将将及格。而在文章写作和阅读理解两类涉及长文处理时,各平台都能取得较好成绩,特别是ChatGPT在生成作文时所选用的句式丰富、篇幅较大且内容更符合小学生的暑假安排,而文心一言是国产大模型中生成内容更丰富、篇幅更多的平台。


语文学科——写作能力较优秀,拼音识别待攻克




表:AIGC平台在小学语文表现结果


小学阶段语文习题大概可以划分为词语/言语理解、原文填空、拼音识别、阅读理解和文章写作5类题目,分别从“词句文”不同层次检验AIGC生成能力和答案质量。相对而言,文心一言在各类题型上表现出色,无明显短板;ChatGPT在阅读理解方面表现较为优秀,可以准确把握出题意图并在原文中提炼答案;讯飞星火和360智脑则在回答言语理解时答题质量有待提升。


图:AIGC平台对5类小学语文习题回答准确程度分布


在给定主题和写作要求的情况下,各大平台都能够紧扣主题完成写作,用词较为准确、行文通顺流畅,展现了大语言模型对汉语丰富内涵的表达能力。ChatGPT生成作文逻辑严谨,能让读者感受语句中蕴含的艺术性;讯飞星火所作文章更善总结归纳,结构清晰;而360智脑无法理解小学6年级题目中“撰文400字以上”的字数要求,所作文章更加简单。


表:各AIGC平台对拼音识别题型回答情况(注:标红为回答正确)


值得关注的是,拼音识别题型结果有较大偏差,文心一言回答结果较为准确(90%以上);ChatGPT和360智脑可正确识别拼音发音首字母,讯飞星火则给出结果较为离谱。分析发现各平台犯错方向有所不同,ChatGPT无法识别音调,且存在自造词的问题,360智脑在字母和音调识别有误,讯飞星火则存在无法按拼音识别单字的情况。


双职工父母功课辅导难,AIGC助力家庭教育




据36氪旗下“后浪研究所”所做的“00后作业小调查”显示,辅导孩子已经成为当代家长“心中的痛”。调查报告显示,当下超8成父母下班后都要辅导孩子学习,平均花费时间为67.7分钟;超9成家长都因为孩子的学习崩溃过,仅8%的家长没有这方面困扰。就此,人民数据研究院建议以下方面:



丰富平台使用方式,允许特殊字符、照片输入等形式


本次测评中,也发现目前同模型交互使用方面,各AIGC平台仅支持文本输入模式,对于物理数学等具有特殊字符的内容则无法输入,同时平台并无“读图”能力,无法通过拍照题目的方式进行回答。此外,对特定题目中提到的“有一个不属于任何一类”的限制条件,4平台除360智脑外,均无法将限制条件纳入回答的考虑之中。



强化AIGC解答能力,提升回答解释丰富度


AIGC的出现一定程度上让目前家庭功课辅导有了更多可能,对于使用文心一言等通用语言模型在各类学科中的回答能力,可以支持跨学科的家庭作业辅导活动。让家长能评判题目正误,如果模型能加入更多解释能力,还能提升讲解效率。


【1】版本号:ChatGPT-3.5 版本:May 24;文心一言版本:V2.2.0;讯飞星火版本:V1.5;360智脑版本:3.12.0

【2】根据大语言模型平台在回答时提供的额外信息,作为评判素材。

【3】回答质量是根据不同类型题目的平均分数得到的,针对具有答案的内容,判断回答正确率,针对作文和阅读理解的内容,从回答长度、切题程度和句式语法等角度主观评断。





推荐 · 阅读


齐齐哈尔体育馆坍塌事故致11人死亡,学生安全问题容不得一点马虎!
你情我愿,闲鱼不管?平台在逃避责任!

人民网·人民数据入选中国电子商会数据要素发展工作委员会副理事长单位

病人不许家属陪护只能请护工,医院陪护纷争如何化解?

“奶辣风”童装产业火热,“擦边球”还是穿衣自由?

作者:人民数据研究院研究员 王简,人民数据研究院研究员 马绮霞

编辑:张咏琴 | 责编:  王晓彤 陈丽

 

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存